The number of international benchmarking competitions is steadily increasing in various fields of machine learning (ML) research and practice. So far, however, little is known about the common practice as well as bottlenecks faced by the community in tackling the research questions posed. To shed light on the status quo of algorithm development in the specific field of biomedical imaging analysis, we designed an international survey that was issued to all participants of challenges conducted in conjunction with the IEEE ISBI 2021 and MICCAI 2021 conferences (80 competitions in total). The survey covered participants' expertise and working environments, their chosen strategies, as well as algorithm characteristics. A median of 72% challenge participants took part in the survey. According to our results, knowledge exchange was the primary incentive (70%) for participation, while the reception of prize money played only a minor role (16%). While a median of 80 working hours was spent on method development, a large portion of participants stated that they did not have enough time for method development (32%). 25% perceived the infrastructure to be a bottleneck. Overall, 94% of all solutions were deep learning-based. Of these, 84% were based on standard architectures. 43% of the respondents reported that the data samples (e.g., images) were too large to be processed at once. This was most commonly addressed by patch-based training (69%), downsampling (37%), and solving 3D analysis tasks as a series of 2D tasks. K-fold cross-validation on the training set was performed by only 37% of the participants and only 50% of the participants performed ensembling based on multiple identical models (61%) or heterogeneous models (39%). 48% of the respondents applied postprocessing steps.
translated by 谷歌翻译
Particle dynamics and multi-agent systems provide accurate dynamical models for studying and forecasting the behavior of complex interacting systems. They often take the form of a high-dimensional system of differential equations parameterized by an interaction kernel that models the underlying attractive or repulsive forces between agents. We consider the problem of constructing a data-based approximation of the interacting forces directly from noisy observations of the paths of the agents in time. The learned interaction kernels are then used to predict the agents behavior over a longer time interval. The approximation developed in this work uses a randomized feature algorithm and a sparse randomized feature approach. Sparsity-promoting regression provides a mechanism for pruning the randomly generated features which was observed to be beneficial when one has limited data, in particular, leading to less overfitting than other approaches. In addition, imposing sparsity reduces the kernel evaluation cost which significantly lowers the simulation cost for forecasting the multi-agent systems. Our method is applied to various examples, including first-order systems with homogeneous and heterogeneous interactions, second order homogeneous systems, and a new sheep swarming system.
translated by 谷歌翻译
道路网络的图结构对于自动驾驶系统的下游任务,例如全球计划,运动预测和控制至关重要。过去,公路网络图通常由人类专家手动注释,这是耗时且劳动力密集的。为了获得更好的有效性和效率的道路网络图,需要进行自动的路网图检测方法。先前的作品要么是后处理的语义分割图,要么提出基于图的算法以直接预测道路网络图。但是,以前的作品遭受了硬编码的启发式处理算法和劣质最终性能。为了增强先前的SOTA(最新方法)方法RNGDET,我们添加了一个实例分割头,以更好地监督模型培训,并使模型能够利用骨干网络的多尺度功能。由于新提出的方法从RNGDET改进,因此命名为RNGDET ++。所有方法均在大型公开数据集上进行评估。 RNGDET ++在几乎所有度量分数上都优于基线模型。它将拓扑正确性APL(平均路径长度相似性)提高了3 \%。演示视频和补充材料可在我们的项目页面\ url {https://tonyxuqaq.github.io/projects/rngdetplusplus/}中获得。
translated by 谷歌翻译
随着自动驾驶汽车的快速发展,目击者对高清地图(HD地图)的需求蓬勃发展,这些地图(HD地图)在自主驾驶场景中提供了可靠且强大的静态环境信息。作为高清图中的主要高级元素之一,道路车道中心线对于下游任务(例如预测和计划)至关重要。人类注释器手动注释车道中心线高清图是劳动密集型,昂贵且效率低下的,严重限制了自动驾驶系统的广泛应用和快速部署。以前的工作很少探索中心线高清图映射问题,这是由于拓扑复杂和道路中心线的严重重叠问题。在本文中,我们提出了一种名为CenterLinedet的新方法,以自动创建Lane Centrine HD地图。通过模仿学习对CenterLinedet进行训练,并可以通过使用车辆安装的传感器进行迭代有效地检测到车道中心线的图。由于应用了类似DITR的变压器网络,CenterLinedet可以处理复杂的图形拓扑,例如车道相交。在大型公开数据集Nuscenes上评估了所提出的方法,并通过比较结果很好地证明了CenterLinedet的优势。本文附有一个演示视频和一个补充文档,可在\ url {https://tonyxuqaq.github.io/projects/centerlinedet/}中获得。
translated by 谷歌翻译
量子系统的许多基本属性都被其哈密顿和基态捕获。尽管基态制备(GSP)具有重要意义,但对于大规模的哈密顿人来说,这项任务在经典上是棘手的。发挥现代量子机的力量的量子神经网络(QNN)已成为征服此问题的领先协议。因此,如何增强QNN的性能成为GSP中的关键主题。经验证据表明,具有手工对称的Ansatzes的QNN通常比不对称Ansatzes的QNN具有更好的训练性,而理论解释却没有被探索。为了填补这一知识差距,我们在这里提出了有效的量子神经切线核(EQNTK),并将这一概念与过度参数化理论联系起来,以量化QNNS趋向全球最佳OPTA的融合。我们发现,对称Ansatzes的进步归因于其较大的EQNTK值,其有效尺寸很小,这要求很少的参数和量子电路深度达到过度参数化的制度,允许良性损失景观和快速收敛。在EQNTK的指导下,我们进一步设计了一种对称修剪(SP)方案,可以自动从过度参数化和不对称的对称的ANSATZ量身定制对称的ANSATZ,以极大地提高QNN的性能,而汉密尔顿的显式对称信息是不可用的。进行了广泛的数值模拟,以验证EQNTK的分析结果和SP的有效性。
translated by 谷歌翻译
VQA是一项雄心勃勃的任务,旨在回答任何与图像有关的问题。但是,实际上,由于用户的需求不断更新,并且该系统必须实施新功能,因此很难为所有人构建这样的系统。因此,持续学习(CL)能力是开发高级VQA系统的必要条件。最近,先锋工作将一个VQA数据集分为不相交的答案集以研究此主题。但是,VQA上的CL不仅涉及标签集的扩展(新答案集)。在将VQA系统部署到新环境(新的视觉场景)以及如何回答需要新功能的问题(新问题类型)时,研究如何回答问题至关重要。因此,我们提出了Clove,这是一个在视觉问题答案上连续学习的基准,其中包含上述两个CL方案的场景和功能收入设置。在方法论方面,VQA和分类的CL之间的主要区别在于,前者还涉及扩大和防止忘记推理机制,而后者则集中在班级表示上。因此,我们提出了一种为CL上量身定制的基于无数据的基于Real-DATA的基于VQA上的方法,称为场景图作为符号重播的提示。它使用一段场景图作为提示,它可以重播伪场景图,以表示过去的图像以及相关的QA对。还提出了一个统一的VQA模型来利用当前和重播数据来增强其质量检查能力。最后,实验结果揭示了丁香的挑战,并证明了我们方法的有效性。数据集和代码将在https://github.com/showlab/clvqa上找到。
translated by 谷歌翻译
在存在未衡量的混杂因素的情况下,我们解决了数据融合的治疗效应估计问题,即在不同的治疗分配机制下收集的多个数据集。例如,营销人员可以在不同时间/地点为相同产品分配不同的广告策略。为了处理由未衡量的混杂因素和数据融合引起的偏见,我们建议将观察数据分为多组(每个组具有独立治疗分配机制),然后将组指标显式地模拟为潜在的组仪器变量(LATGIV),将其模拟为实施基于IV的回归。在本文中,我们概念化了这种思想,并开发了一个统一的框架,以(1)估计跨群体观察到的变量的分布差异; (2)对不同治疗分配机制的LATGIV模型; (3)插入latgivs以估计治疗响应函数。经验结果证明了与最新方法相比,LATGIV的优势。
translated by 谷歌翻译
将深度学习与象征性逻辑推理相结合旨在利用这两个领域的成功,并引起越来越多的关注。受到深度循环的启发,这是一种端到端的模型,该模型训练了逻辑程序的推理,我们引入了Ima-Glove-GA,这是一种以自然语言表达的多步推理的迭代神经推理网络。在我们的模型中,推理是使用基于带门注意机制的RNN的迭代记忆神经网络进行的。我们在三个数据集上评估了iMa-glove-ga:副本,Conceptrules V1和Conceptrules V2。实验结果表明,与DeepLo​​gic和其他RNN基线模型相比,深沟和栅极注意可以达到更高的测试精度。当规则被淘汰时,我们的模型比罗伯塔·洛尔格(Roberta-Large)实现了更好的分布概括。此外,为了解决当前多步推理数据集中推理深度分布不平衡分布的问题,我们开发了Pararule-Plus,这是一个大型数据集,其中包含更多需要更深入推理步骤的示例。实验结果表明,添加Pararule-Plus可以在需要更深层次深度的示例中提高模型的性能。源代码和数据可在https://github.com/strong-ai-lab/multi-step-deductive-reasoning-over-natural语言中获得。
translated by 谷歌翻译
当1)培训数据集的类别分布P(Y)时,机器学习模型无法在现实世界应用程序上表现良好。现有方法无法处理存在两个问题的方案,但是对于现实世界应用程序来说,这很常见。在这项研究中,我们向前迈出了一步,研究了域转移下的长尾分类问题。我们设计了三个新颖的核心功能块,包括分布校准的分类损失,视觉语义映射和语义相似性引导性增强。此外,我们采用了一个元学习框架,该框架集成了这三个区块,以改善对看不见的目标域的域概括。为此问题提出了两个新的数据集,称为AWA2-LTS和Imagenet-LTS。我们在两个数据集上评估了我们的方法,并且广泛的实验结果表明,我们提出的方法可以比最新的长尾/域概括方法和组合实现优越的性能。源代码和数据集可以在我们的项目页面https://xiaogu.site/ltds上找到。
translated by 谷歌翻译
对比性语言图像预训练(剪辑)模型是最近提出的大规模训练模型,它吸引了计算机视觉社区越来越多的关注。从其巨大的图像文本训练集中受益,剪辑模型在零拍学习和图像文本匹配方面学习了出色的功能。为了提高剪辑在某些目标视觉概念上的识别性能,通常希望通过在额外的培训数据上微调一些利益来进一步更新剪辑模型。但是,此操作引起了一个重要的关注:更新会损害零镜头学习或剪辑的图像文本匹配能力,即灾难性的遗忘问题吗?如果是,是否可以适应现有的持续学习算法来减轻灾难性遗忘的风险?为了回答这些问题,这项工作对剪辑模型的持续学习问题进行了系统性研究。我们构建评估协议,以衡量微调更新的影响,并探索不同的方法来升级现有的持续学习方法,以减轻剪辑模型的遗忘问题。我们的研究揭示了剪辑持续学习问题的特殊挑战,并为进一步的研究奠定了基础。此外,我们提出了一种新算法,被称为学习,而无需通过重播词汇(VR-LWF)忘记,该算法显示出减轻剪辑模型遗忘问题的确切有效性。
translated by 谷歌翻译